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摘 要 : 随 着 互联 网 技术 和 新 媒体 业务 的 攻 勃 发 展 ， 数 据 新 闻 创 新 产品 层出不穷 ， 新 闻 的 数据 可 视 化 成 为 一 种 趋势 ， 国 内 外 
的 数据 可 视 化 实践 也 正在 如 火 如 茶 的 进行 。 在 众多 的 新 闻 可 视 化 形式 中 ， 词 云 可 以 快速 概览 新 闻 内 容 并 获取 关键 信息 ， 且 呈 
现形 式 多 样 ， 受 到 了 编辑 记者 和 读者 的 喜爱 。 本 文 以 新 闻 数 据 可 视 化 工具 “ 词 云 ” 为 切入 点 ， 基 于 对 新 闻 报道 的 场景 需求 ， 
利用 新 闻 关 键 词 提取 算法 和 数据 可 视 化 技术 实现 词 云 工具 ， 有 效 地 提升 了 新 华 社 编辑 记者 制作 词 云 的 效率 。 
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导语 词 云 工具 的 制作 界面 十 分 简洁 ， 分 为 菜单 栏 、 左 侧 
词 云图 也 叫 文字 云 ， 可 将 文本 中 出 现 的 能 够 代表 主 ”展示 区 和 右 侧 配置 区 。 核 心 功能 分 布 在 右 侧 配置 区 ， 包 
要 信息 的 “关键 词 ” 予 以 视觉 化 的 展示 。 主 要 流程 是 通 。 括 数据 编辑 和 图 表 设 置 两 大 块 。 数 据 编 辑 区 提供 文本 分 
过 算法 或 统计 手段 获取 文字 中 关键 信息 ， 并 将 这 些 信 息 。 析 功 能 , 通过 上 传 文件 等 方式 ， 进 行文 本 关键 词 的 词 频 、 
通过 形式 多 样 的 展示 形式 加 以 呈现 。 这 种 方式 使 读者 对 权重 统计 等 。 图 表 设 置 区 提供 词 云 样式 编辑 功能 ， 用 于 
文本 内 容 有 更 加 直观 的 体验 ， 是 编辑 记者 最 常用 的 新 闻 。 自 定 义 词 云 形状 、 字 体 、 颜 色 等 。 
数据 可 视 化 形式 之 一 。 市 面 上 不 乏 一 些 功 能 和 形态 较为 1.1 产品 功能 
完善 的 词 云 工具 ， 但 运用 到 新 闻 报 道场 景 中 ， 一 方面 ， 1.1.1 数据 编辑 
词 去 生成 效果 较 难 满足 要 求 ， 另 一 方面 ， 容 易 引 发 安全 用 户 通过 上 传 文件 、 输 入 正文 等 方式 ， 选 择 词 频 、 
和 版 权 等 问题 。 基 于 此 ， 根 据 新 华 社 新 闻 报 道 的 特点 ， 权重 等 抽取 类 型 ， 工 具 将 对 其 进行 自动 文本 分 析 ， 抽 取 
充分 调研 编辑 记者 对 词 云 工具 的 需求 ， 自 主 研究 关键 词 ”关键 词 ， 迅 速 在 左 侧 展示 区 生成 默认 的 词 云 效果 。 
提取 技术 和 数据 可 视 化 技术 ， 研 发 了 一 款 操作 简单 、 风 抽取 关键 词 结果 将 在 数据 表格 中 显示 ,用户 可 对 表 
格 明快 的 在 线 词 云 制作 工具 。 在 该 词 云 工 具 的 开发 和 迭 ” 格 中 的 数据 进行 在 线 修改 、 添 加 或 删除 。 同 时 支持 对 处 
代 过 程 中 ， 在 产品 形态 、 总 体 技术 架构 、 新 闻 关 键 词 提 。” 理 后 的 数据 集 进行 导出 下 载 。 


取 算法 等 方面 进行 了 深入 的 探索 和 实践 。 关键 词 自动 抽取 支持 长 词 、 短 词 的 两 种 词 频 ( 文本 

1. 产品 形态 中 关键 词 出 现 的 次 数 ) 算法 ,以 及 权重 (根据 文本 上 下 
词 云 工具 是 一 款 面向 编辑 记者 的 高 效 、 易 用 的 数据 文 语义 关系 计算 得 出 ) 算法 。 

可 视 化 工具 ， 同 时 提供 文本 分 析 和 词 云 制作 功能 ， 让 没 上 传 文件 支持 xt、doc、docx、pdf 等 多 种 格式 ， 还 

有 数据 分 析 和 平面 设计 基础 的 用 户 也 能 轻松 设计 出 精美 ”支持 直接 输入 稿件 正文 或 有 效 网 址 等 多 种 方式 。 

的 可 视 化 词 云图 。 如 图 1 所 示 。 1.1.2 图 表 设 置 


考虑 到 不 同 新 闻 场景 ， 支 持 对 词 云 的 形状 、 颜 色 、 
一 全 一， 字体、 动画 等 进行 个 性 化 配置 ， 调 整 参数 后 可 在 左 侧 展 
示 区 实时 看 到 泻 染 效果 ， 易 用 日 高 效 。 
全 一 词 云 形状 提供 了 丰富 的 样式 , 包括 表情 、 形 状 、 数 字 、 
es 体育 等 多 种 类 型 。 支 持 用户 上 传 图 片 ， 自 定义 词 云 轮廓 ， 
有 效 扩大 了 词 云 的 使 用 场景 。 
词 云 主题 色 默 认 提 供 严 肃 、 活 泌 、 庄 重 、 柔 和 、 浙 
图 1 词 去 工具 界面 展示 变 等 多 种 主题 色 ， 上 日 支持 获取 图 片 颜色 像素 点 作为 文字 
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颜色 ， 用 户 可 根据 偏好 灵活 选择 。 丰 富 的 主题 色 提升 了 
词 云 的 可 视 化 效果 , 令 其 在 新 闻 稿 件 中 “效果 突出 ”， 
一 目 了 然 。 

词 云 工具 还 提供 多 种 免费 商用 字体 供用 户 使 用 ， 编 
辑 无 需 再 重新 加 载 或 安装 字体 , 即 可 实时 看 到 字体 效果 。 
同时 提供 个 性 化 配置 , 用 户 可 根据 需求 ， 对 字号、 轮廓 、 
动画 进行 个 性 化 调整 ， 对 词 云 的 最 终 效果 进行 调 优 ， 大 
大 提升 用 户 体 验 。 

2. 总 体 技术 架构 
系统 架构 设计 过 程 中 ， 项 目 组 进行 了 充分 的 前 期 调 


形 区 域 。 每 个 关键 词 在 布局 时 都 要 通过 碰撞 检测 算法 ， 
检测 是 否 与 先前 已 布局 好 的 关键 词 位 置 冲突 ; 

若 检测 到 冲突 ， 则 会 沿 着 阿 基 米 德 螺旋 线 重新 布局 
该 关键 词 ; 

若 该 词 不 能 沿 着 螺旋 线 的 任何 地 址 被 布局 ， 则 会 轮 
询 展示 下 一 个 关键 词 。 
2.2 服务 器 端 

服务 器 端 主要 基于 Node.js、MySQL、Redis 等 技术 ， 
业务 逻辑 采用 Express 框架 进行 开发 ， 可 快速 方便 地 创建 
API 接 口服 务 。 MySQL、Redis 等 采用 集群 式 数据 存储 技术 ， 


研 ， 与 编辑 记者 进行 了 多 次 交流 讨论 ， 通 过 借鉴 多 家 商 
业 产 品 从 而 完成 了 整体 的 产品 设计 。 考 虑 到 B/S 架构 分 
布 灵活 ， 维 护 成 本 低 ， 只 要 有 网 络 、 浏 览 器 ， 便 可 以 随 
时 随地 查询 、 制 作 和 修改 词 云 ， 项 目 组 基于 前 端 可 视 化 
技术 的 积累 ， 完 成 技术 选 型 策略 。 下 面 分 别 从 浏览 器 端 
和 服务 器 端 进行 总 体 技术 架构 的 详细 阐述 。 
2.1 浏览 器 端 

浏览 器 端 采 用 React 框架 、Ant Design UI 库 、G2 可 
视 化 引擎 等 业界 最 新 技术 栈 ， 实 现 简洁 、 易 用 、 健 壮 的 
前 端 交互 式 界面 。 

React 是 用 于 构建 用 户 界 面 的 JavsScript 库 ， 偏 向 
于 更 底层 的 实现 逻辑 ， 便 于 灵活 构建 自 定义 组 件 。 由 
于 其 采用 了 Virtual DOM 设计 思想 ， 当 页 面 重新 演 染 组 
件 时 ，React 在 Virtual DOM 上 通过 dif 算法 寻找 到 要 
变更 的 DOM 节点 ， 再 把 本 次 修改 作用 到 浏览 器 实际 的 
DOM 节点 上 ， 相 当 于 在 JS 和 真实 DOM 中 间 加 了 缓存 ， 
利用 diff 算法 减少 了 真实 DOM 不 必要 的 操作 ， 从 而 表 
现 了 优越 的 系统 性 能 ， 在 大 型 系统 架构 中 得 到 了 广泛 
使 用 。 

Ant Design UI 库 是 一 套 开 箱 即 用 的 高 质量 React 组 件 
库 ， 提 供 了 丰富 的 基础 组 件 ， 视 觉 风格 简洁 美观 ， 覆 盖 
大 部 分 应 用 开发 的 场景 ， 结 合 React 强大 的 生态 体系 形成 
了 一 整套 前 端 解决 方案 ， 高 效率 定制 开发 用 户 界面 ， 有 
效 构 建 管理 前 端 项 目 。 

G2 可 视 化 引擎 是 蚂蚁 金 服 开源 的 一 套图 表 库 ， 具 有 
高 度 的 易 用 性 和 扩展 性 。" 其 以 数据 驱动 的 高 交互 可 视 
化 图 形 语法 ， 可 灵活 绘制 出 各 种 各 样 的 图 表 类 型 ， 有 效 
助力 可 视 化 分 析 。 本 项 目 中 利用 G2 图 形 语法 ， 底 层 优化 
了 基于 D3 实现 的 词 云 布局 算法 ， 从 而 动态 泻 染 出 大 量 的 
文字 标签 。"" 

算法 实现 原理 如 下 : 

初始 化 关键 词 的 配置 参数 ， 对 数据 进行 排序 ， 从 权 
重 最 大 的 关键 词 开始 布局 ; 

一 个 关键 词 包含 四 个 顶点 ， 通 过 坐标 表示 为 一 个 矩 


提高 了 系统 的 可 靠 性 和 性 能 。 

Node.js 是 一 个 事件 驱动 、 非 阻塞 式 IO 的 JavaScript 
模型 ， 基于 Chrome (V8 引擎 ) 的 Web 应 用 程序 框架 。 
PNode.js 还 提供 了 各 种 丰富 的 JavaScript 模块 库 ， 极 大 地 
简化 了 使 用 Node.js 来 扩展 Web 应 用 程序 的 开发 工作 。 

Express 是 一 个 基于 Node.js 平 台 ， 有 灵活 、 便 捷 的 
Web 开发 框架 ,提供 了 一 系列 强大 的 特性 帮助 快速 创建 
Web 应 用 和 Http 工具 。 其 核心 特性 包括 : (1) 通过 设 
置 中 间 件 来 响应 Http 请 求 ; (2 ) 定义 路 由 表 用 于 执行 不 
同 的 Http 请 求 ;，(3 ) 通过 向 模板 传递 参数 来 动态 渲染 
Html 页 面 等 。 由 于 Express 封装 了 很 多 功能 包 ， 因 此 在 
构建 大 型 项 目 中 ， 通 常 采 用 其 作为 中 间 服 务 层 框 架 ， 用 
于 处 理 业 务 逻 辑 。 

MySQL 是 一 个 多 线程 SQL 数据 库 服务 器 ， 它 能 够 快 
速 、 有 效 、 安 全 地 人 处 理 大 量 的 数据 。 相 对 于 Oracle 等 数 
据 库 来 说 ，MySQL 的 使 用 更 加 简洁 ， 由 于 其 快速 、 健 壮 
和 易 用 的 优点 ， 在 Web 应 用 方面 得 到 了 广泛 的 使 用 。 

Redis 是 一 个 高 性 能 的 数据 结构 服务 器 ， 可 以 用 作 数 
据 库 、 缓存 、 消 息 代 理 。 其 支持 的 数据 结构 包括 字符 串 、 
哈 希 、 列 表 、 集 合 、 有 序 集合 、 位 图 、 超 级 日 志 ， 通 过 
Redis 哨兵 和 Redis 集群 自动 分 区 。Redis 运行 在 内 存 中 也 
可 以 持久 化 到 磁盘 ， 具 有 非常 广泛 的 应 用 场景 ， 对 关系 
型 数据 库 也 能 起 到 很 好 的 补充 作用 。 

本 项 目 中 ， 使 用 MySQL 技术 保存 模板 配置 ， 存 储 用 
户 记 录 ， 完 成 复杂 的 统计 查询 操作 ; 使 用 Redis 技术 存储 
任务 ID， 应 用 于 大 体 量 的 文本 关键 词 抽 取 ， 通 过 异步 轮 
询 方式 ,保证 了 接口 的 稳定 性 和 可 访问 性 。 
3. 关键 词 提取 算法 

在 词 云 工具 中 ,采用 基于 词 图 模型 的 无 监督 方法 来 
提取 文本 关键 词 。 

文档 关键 词 表 征 了 文档 主题 性 和 关键 性 的 内 容 ， 是 
人 们 快速 了 解 文档 内 容 、 把 握 主题 的 重要 方式 。 关 键 词 
广泛 应 用 于 新 闻 报 道 、 科 技 论文 等 领域 ,方便 人 们 高 效 
地 查阅 、 管 理 和 检索 文档 。 
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文档 关键 词 需要 同时 具 可 读 性 、 相 关 性 和 禾 盖 度 。 
可 读 性 : 关键 词 本 身 应 该 是 有 意义 的 词 或 者 短语 。 
相关 性 : 关键 词 必须 与 文档 主题 相关 。 

善 度 : 关键 词 要 能 够 对 文档 的 主题 有 较 好 的 覆盖 ， 
不 能 只 集中 在 文档 某 个 主题 而 忽略 了 文档 其 他 主题 。 

文本 的 关键 词 提取 方法 分 为 有 监督 、 半 监督 和 无 监 
督 三 种 。 外 有 监督 的 方法 将 关键 词 抽 取 问 题 转化 为 每 个 
词 的 分 类 问题 ， 对 每 个 词 进行 是 不 是 关键 词 的 判别 ， 需 
要 进行 大 量 的 数据 标注 。 半 监督 的 方法 利用 少量 的 训练 
样本 构建 关键 词 抽取 模型 ， 然 后 使 用 该 模型 对 新 的 文本 
数据 进行 关键 词 提取 ， 将 得 到 的 这 些 关键 词 进行 人 工 过 
滤 ， 将 过 滤 得 到 的 关键 词 加 入 训练 集 ， 重 新 训练 模型 。 
无 监督 不 需要 人 工 标注 数据 ， 利 用 一 些 方法 发 现 文本 
比较 重要 的 词 作为 关键 词 。 有 监督 的 关键 词 提 取 算 法 需 
要 高 昂 的 人 工 成 本 ， 半 监督 需要 部 分 标注 数据 ， 同 时 也 
需要 大 量 的 人 工 干 预 ， 因 此 现 有 的 文本 关键 词 提 取 主 要 
采用 适用 性 较 强 的 无 监督 关键 词 抽 取 。 

无 监督 的 方法 主要 有 基于 统计 特征 、 基 于 词 图 模型 
和 基于 隐 含 主题 模型 三 种 。 基 于 统计 特征 的 方法 ， 根 据 词 
或 短语 的 词性 、 词 频 、TF-IDF、 位 置信 息 、 互 信息 、 词 
跨度 等 量化 指标 进行 排序 后 ， 选 取 分 值 靠 前 的 词 或 短语 作 
为 关键 词 。 基 于 词 图 模型 的 方法 ， 以 候选 关键 词 为 项 点， 
以 词 与 词 之 间 的 共 现 关系 为 边 组 成 一 个 有 向 图 ， 然 后 使 用 
特定 的 算法 来 选取 出 图 中 比较 重要 的 顶点 作为 关键 词 。 基 
于 隐 含 主题 模型 的 方法 ， 利 用 主题 模型 中 关于 主题 的 分 布 
的 性 质 进 行 关 键 词 提取 。 基 于 词 图 模型 的 方法 是 目前 较为 
常用 的 方法 ， 本 项 目的 方法 在 此 基础 上 进行 优化 。 
3.1 新 闻 关 键 词 提取 算法 流程 

考虑 到 实际 应 用 中 的 稿件 为 新 闻 稿 件 ， 提 取 的 关键 
词 需要 为 有 含义 的 词 或 短语 ， 才 能 对 文章 有 较 强 的 概括 
性 。 我 们 采用 以 下 方法 进行 关键 词 提取 。 

预 处 理 : 去 除 新 闻 稿 件 中 与 稿件 内 容 和 结构 无 关 的 
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性 ; 命名 实体 识别 可 识别 人 人名、 地名、 机构 名 、 会 议 名 
和 时 间 词 。 入 选 关键 词 的 词性 主要 有 各 类 名 词 、 动 词 和 
实体 词 ; 排除 关键 词 的 词性 有 : 动词 “是 ”、 动 词 “ 有 ”、 
趋向 动词 、 形 式 动 词 、 能 愿 动词 、 数 词 。 

下 面 主要 描述 算法 中 的 两 个 关键 步 又 一 一 利用 依存 
句法 进行 短语 提取 和 关键 词 排序 的 详细 过 程 。 

3.2 利用 依存 语法 进行 短语 提取 

依存 句法 关系 描述 的 是 句子 中 各 单位 成 分 之 间 句 法 
层面 的 关系 ， 也 就 是 各 个 词语 之 间 的 依存 关系 ， 这 种 依 
存 关 系 不 但 指出 了 词语 之 间 在 句法 上 的 搭配 关系 ， 也 可 
以 表明 一 定 的 语义 关联 性 。 为 了 尽 可 能 地 找到 具有 实际 
意义 的 短语 ， 根 据 语 料 归纳 和 语言 学 规则 整理 得 出 以 下 
15 种 句法 依存 关系 来 描述 新 闻 稿件 中 的 依存 关系 。 这 15 
种 关系 具体 为 : 主 谓 关 系 (SBV ) 、 动 宾 关 系 (VOB ) 、 
间 宾 关系 (IOB ) 、 前 置 宾语 (FOB ) 、 兼 语 (DBL ) 、 
定 中 关系 ( ATT ) 、 状 中 结构 (ADV ) 、 动 补 结构 (CMP ) 、 
并 列 关系 (C00 ) 、 介 宾 关 系 (POB ) 、 左 附加 关系 (LAD )、 
右 附 加 关系 (RAD ) 、 独 立 结构 (IS) 、 标 点 (WP ) 、 
核心 关系 ( HED ) 。 

为 了 保证 句法 依存 的 效果 能 够 更 好 地 适应 新 闻 稿件 
数据 ， 从 新 闻 数 据 中 选择 了 1672 个 句子 ， 对 其 进行 依存 
句法 的 标注 后 加 入 到 原 有 训练 数据 中 ,提升 了 句法 依存 
算法 对 新 闻 数 据 的 适应 性 。 

在 对 句子 进行 词性 标注 和 句法 依存 分 析 后 ， 对 分 析 
结果 进行 合并 ， 主 要 以 合并 定 中 结构 短语 为 主 ， 为 了 防 
止 合 并 过 多 ， 还 使 用 一 些 规则 进行 处 理 ， 例 如 : 连词 、 
助词 和 标点 等 不 出 现在 短语 结构 中 ; 主 谓 关 系 不 能 合 3 
部 分 动 补 结构 可 以 作为 短语 等 。 

表 1 分 词 与 短语 提取 结果 对 比 表 


真 金 白银 的 投入 ， 为 打 赢 脱贫 攻坚 战 提 供 了 强大 
资金 保障 。 
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真 金 白银 的 投入， 为 打 赢 脱贫 攻坚 战 提供 了 


特殊 字符 ， 然 后 进行 分 词 、 词 性 标注 、 命 名 实体 识别 等 
处 理 。 
生成 关键 词 候选 集 ， 包 括 三 个 步骤 : 

关键 短语 生成 : 单独 使 用 分 词 结果 时 ， 由 于 分 词 的 
粒度 太 细 ， 无 法 找 出 来 关键 短语 ， 这 里 采用 基于 依存 句 
法 的 方式 进行 关键 短语 的 生成 ; 

根据 规则 和 词 表 获取 新 闻 稿 件 中 的 正 向 词 ; 

根据 规则 和 指标 筛选 出 合适 的 关键 词 候选 集 ; 

关键 词 排序 和 选择 : 主要 使 用 两 种 排序 方法 ， 一 种 
是 基于 权重 的 排序 ， 一 种 是 基于 词 频 的 排序 ; 排序 后 根 
据 所 需 关键 词 个 数 排序 靠 前 的 词 作为 关键 词 结果 。 

算法 细节 : 使 用 的 分 词 词性 标注 算法 可 标注 59 个 词 


分 词 结 
分 词 结 果 强大 资金 保障 。 
短语 提取 结果 ee 


强大 资金 保障 。 


3.3 设置 正 向 词 
正 向 词 的 加 入 ， 对 政治 类 新 闻 的 关键 词 提取 效果 有 
提升 作用 。 

正 向 词 是 指 对 稿件 内 容 具有 概括 作用 的 、 有 积极 作 
用 的 词语 ， 在 某 些 分 类 ( 例如; 政治 ) 的 新 闻 中 ， 正 向 
词 具 有 指引 作用 。 

通过 和 用 户 沟通 ,使 用 两 个 方式 获取 正 向 词 ,一 是 
获取 文本 中 引号 、 括 号 和 书 名 号 中 的 文字 作为 正 向 词 ， 
二 是 通过 用 户 设 置 正 向 词典 的 方式 。 
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在 某 些 分 类 中 ， 正 向 词 的 作用 十 分 重要 ,为 了 提高 


小 于 等 于 该 短 词 长 度 的 词 称 为 短 词 ， 大 于 该 短 词 长 度 的 


正 向 词 的 权重 ， 在 进行 权重 排序 时 ， 通 过 加 大 正 向 词 初 
始 权 重 的 方式 提高 正 向 词 的 权重 ， 以 保证 其 有 更 大 概率 
出 现在 关键 词 排 序 靠 前 的 位 置 。 

用 户 反馈 证 实 ， 正 向 词 提升 了 政治 类 新 闻 关 键 词 的 
提取 效果 。 

3.4 关键 词 排序 方法 


词 称 为 长 词 。 如 果 短 词 在 长 词 中 出 现 ， 那 么 需要 在 关键 

词 候选 集中 去 除 该 短 词 。 这 样 既 可 以 保证 长 词 效果 ， 又 

可 以 保证 重要 的 短 词 不 被 过 滤 。 在 使 用 过 程 中 这 种 方式 

的 提取 效果 也 受到 了 用 户 的 认可 。 

4. 成 果 及 改进 方向 
通过 前 期 调研 、 产 品 设计 、 自 主 研发 、 算 法 调 优 ， 


从 实际 应 用 场景 出 发 ， 综 合用 户 意见 ， 提 出 了 以 下 


项 目 组 迅速 完成 了 代码 编写 和 高 效率 地 迭代 开发 ， 实 现 


两 种 关键 词 的 排序 方法 : 基于 权重 的 排序 方法 和 基于 词 
频 的 排序 方法 。 
3.4.1 基于 权重 的 方法 

得 到 候选 词 集 后 ， 使 用 基于 TextRank 的 方法 对 词 进 
行 排序 。TextRank 算法 计算 时 只 依赖 于 词 或 短语 与 其 他 
词 或 短语 的 共 现 度 。 其 步骤 如 下 : 

构建 图 , 以 词 作为 项 点 ,两 个 词 在 一 定 的 窗口 内 共 现 ， 
则 构建 边 。 

应 用 PageRank" 算法 或 相似 算法 获得 每 个 顶点 的 权 


重 。 


基于 权重 对 顶点 排序 并 选择 部 分 词 作为 关键 词 。 

该 方法 的 优点 是 ， 可 以 基于 词语 和 周围 词语 的 关联 
程度 确定 该 词 的 权重 ， 相 比 世 df 等 算法 ， 可 以 通过 词语 
间 的 相互 联系 判断 该 词 的 重要 性 。 算 法 中 ,使 用 词语 的 六 
作为 初始 值 , 词 窗口 选择 5, 并 且 在 确定 词 的 初始 权重 时 ， 
加 入 了 正 向 词 的 机 制 ， 保 证 正 向 词 的 权重 。 

3.4.2 基于 词 频 的 方法 

词 频 指 一 个 词 在 文章 中 的 出 现 次 数 ， 出 现 次 数 越 多 
的 词 代表 该 词 越 重 要 。 基 于 用 户 反 馈 ， 得 知 权重 排序 算 
法 给 出 的 权重 值 并 不 能 很 直观 的 体现 词汇 的 重要 性 ， 因 
此 ， 在 生成 候选 关键 词 集 后 ， 可 以 选择 基于 词 频 的 方法 
得 到 关键 词 。 

基于 词 频 的 统计 方法 分 为 分 词 词 频 和 出 现 词 频 两 种 。 

分 词 词 频 : 在 通过 分 词 、 词 性 标注 和 命名 实体 识别 
等 步骤 后 得 到 的 候选 词 集 上 对 其 进行 词 频 统计 ， 这 样 统 
计 得 到 的 词 频 是 正确 分 词 后 的 该 词 的 次 数 。 

出 现 词 频 : 在 得 到 关键 词 候选 集 上 ， 统 计 每 个 词 在 
文中 的 出 现 次数 ， 使 用 的 是 字符 串 匹 配 的 方式 ， 这 种 方 
式 比 较 直 观 ， 和 常用 的 查找 方式 结果 一 致 。 

分 词 词 频 的 统计 结果 更 准确 ， 而 出 现 词 频 的 结果 更 
方便 验证 ， 这 两 种 方式 可 由 用 户 进行 自由 选择 。 

此 外 编辑 还 提出 ， 算 法 提取 的 词汇 比较 短 ， 并 不 能 
看 出 真实 的 意思 体现 ， 从 美观 的 角度 看 ， 有 些 图 比较 适 
合用 长 词 填充 ， 有 些 词 比较 适合 用 短 词 填充 。 按 照 以 上 
需求 ， 又 提供 了 过 滤 短 词 的 方法 。 

由 系统 默认 配置 和 用 户 指 定 的 方式 设置 短 词 长 度 ， 


了 整个 词 云 工具 的 构建 和 优化 。 基 于 该 工具 ， 记 者 编辑 
在 2021 年 春节 、 两 会 等 重大 报道 期 间 制 作 了 多 个 效果 出 
色 的 作品 ， 并 对 该 工具 表示 了 肯定 ， 同 时 也 提出 了 宝贵 
的 意见 和 建议 。 

接 下 来 会 从 优化 用 户 体验 、 提 供 更 灵活 的 自 定 义 设 
置 、 提 供 更 多 更 精美 的 样式 效果 等 方面 进行 改进 ， 通 过 
不 断 打磨 ， 让 产品 继续 成 长 。 

5. 总 结 

通过 自主 研发 的 方式 , 针对 新 闻 场景 进行 创新 应 用 ， 
结合 业务 的 分 析 和 改进 ， 最 终 形成 了 具备 新 闻 报道 要 求 的 
在 线 词 云 工具 ， 有 效 助力 编辑 快速 创作 数据 新 闻 。 以 此 为 
基础 ， 将 探索 更 多 新 闻 数 据 可 视 化 工具 的 研发 。 申 
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